@OneRec: 希望更多的人来研究端到端推荐

链接: OneRec: 希望更多的人来研究端到端推荐 - 知乎

当前的推荐模型架构,广义scaling law最明显的仅在:#card

    1. 行为序列长度
    1. 打分候选集。

如果坚信广义的scaling law,模型算力投入越大,效果越好,我们要回答三个问题:#card

其实这条路还有很多事情可以做,希望有更多的同行进来一起走这条路,我们目前正在研究的主要是几个问题:

  • 大方向:

    • 端到端之后,RL特别有效。但什么是好的推荐结果,本身是一个没定义好的问题,#card

      • 因此reward system是一个推荐领域非常值得研究的问题。

      • 可能有些观点会认为learning2rank已经研究过这些了,不过我认为还有挺大的研究空间吧。

      • 毕竟以前那些RL 做learning2rank的工作,只能影响重排,解空间太小了,对系统影响都很小。挺多结论在端到端系统上会变化。

    • 更明显和solid的模型尺寸scaling law。#card

      • 这个我们重构完模型结构设计后有一些进展,看起来还比较promising,估计很快OneRecV2出来就有更清晰的scaling law了。

      • 顺利的话,还挺期待的。这样我们就有机会画出一条线,横轴是公司需要投入的计算成本金额,纵轴是提升的业务数据。大伙儿去申请机器就变得容易了:)

    • 怎么把推荐行为模态和其他多模态在一个LLM基座上对齐。#card

      • 这个还是挺关键的,如果能对齐的话推荐模型就可以在文本空间进行推理思考, 做深度检索,才会让模型达到一个新的高度。

      • 这本身也是我们做OneRec的终极目标。我们有一些思路,看到了眉目,目前可以告诉大家推荐行为模态和LLM肯定是能实现对齐的。但当下进展太小了,就不拿出来贻笑大方了。

  • 还是open到底,把一些更细节一点的迭代也share出来吧,如果大家做得更快就太好了,我们直接用。估计V2就一起和大家见面了,还有一些可能比较小但是作用较大的事也在迭代:

    • 现在的tokenizer其实很简单,我们做了一套端到端的tokenizer方案,目前看也是有提升的。#card

      • 这里的一个关键是不能做残差的编码,得做类似llm的平行tokenizer,不然模型的检索空间会很小,永远都不可能思考。
    • 现在生成的模型结构里,除了没办法做target item的attention之外,target item本身的feature也没办法加进去,比如视频的作者信息。#card

      • 我们在做一个item rag,用生成token的前缀去检索相关的item list然后做feature总结。

      • user rag就不太需要做了,本身新模型结构里能把序列长度拉到上万没啥成本。更长的部分准备用压缩和sparse att的方法。

作者

Ryen Xiang

发布于

2025-06-22

更新于

2025-06-25

许可协议


网络回响

评论